RL eficiente para razonamiento visual-textual con difusión discreta Descubre cómo la difusión discreta reduce un 26.9% el cómputo en razonamiento visual-textual y la recompensa factorizada mejora un 11.2% el rendimiento. 2026-06-16 · 2 min